智能论文笔记

SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained Image Categorization

Asish Bera , Zachary Wharton , Yonghuai Liu , Nik Bessis , Ardhendu Behera

分类：计算机视觉 | 人工智能

2022-09-05

在过去的几年中，基于深度卷积神经网络（CNN）的图像识别已取得了重大进展。这主要是由于此类网络在挖掘判别对象姿势以及质地和形状的零件信息方面具有强大的能力。这通常不适合细粒度的视觉分类（FGVC），因为它由于阻塞，变形，照明等而表现出较高的类内和较低的阶层差异。表征对象/场景。为此，我们提出了一种方法，该方法可以通过汇总大多数相关图像区域的上下文感知特征及其在区分细颗粒类别中避免边界框和/或可区分的零件注释中的重要性来有效捕获细微的变化。我们的方法的灵感来自最新的自我注意力和图形神经网络（GNNS）方法的启发端到端的学习过程。我们的模型在八个基准数据集上进行了评估，该数据集由细粒对象和人类对象相互作用组成。它的表现优于最先进的方法，其识别准确性很大。

translated by 谷歌翻译

Retinal Structure Detection in OCTA Image via Voting-based Multi-task Learning

Jinkui Hao , Ting Shen , Xueli Zhu , Yonghuai Liu , Ardhendu Behera , Dan Zhang , Bang Chen , Jiang Liu , Jiong Zhang , Yitian Zhao

分类：计算机视觉

2022-08-23

自动检测视网膜结构，例如视网膜血管（RV），凹起的血管区（FAZ）和视网膜血管连接（RVJ），对于了解眼睛的疾病和临床决策非常重要。在本文中，我们提出了一种新型的基于投票的自适应特征融合多任务网络（VAFF-NET），用于在光学相干性层析成像（OCTA）中对RV，FAZ和RVJ进行联合分割，检测和分类。提出了一个特定于任务的投票门模块，以适应并融合两个级别的特定任务的不同功能：来自单个编码器的不同空间位置的特征，以及来自多个编码器的功能。特别是，由于八八座图像中微脉管系统的复杂性使视网膜血管连接连接到分叉/跨越具有挑战性的任务的同时定位和分类，因此我们通过结合热图回归和网格分类来专门设计任务头。我们利用来自各种视网膜层的三个不同的\ textit {en face}血管造影，而不是遵循仅使用单个\ textit {en face}的现有方法。为了促进进一步的研究，已经发布了这些数据集的部分数据集，并已发布了公共访问：https：//github.com/imed-lab/vaff-net。

translated by 谷歌翻译

Benchmarking Deep Reinforcement Learning Algorithms for Vision-based Robotics

Swagat Kumar , Hayden Sampson , Ardhendu Behera

分类：机器人 | 人工智能

2022-01-11

本文介绍了一些最先进的加强学习算法的基准研究，用于解决两个模拟基于视觉的机器人问题。本研究中考虑的算法包括软演员 - 评论家（SAC），近端政策优化（PPO），内插政策梯度（IPG），以及与后敏感体验重播（她）的变体。将这些算法的性能与Pybullet的两个仿真环境进行比较，称为KukadiverseObjectenV和raceCarzedgymenv。这些环境中的状态观察以RGB图像的形式提供，并且动作空间是连续的，使得它们难以解决。建议许多策略提供在基本上单目标环境的这些问题上实施算法所需的中级后敏感目标。另外，提出了许多特征提取架构在学习过程中纳入空间和时间关注。通过严格的模拟实验，建立了这些组分实现的改进。据我们所知，这种基准测试的基础基础是基于视觉的机器人问题的基准研究，使其成为该领域的新贡献。

translated by 谷歌翻译

Modeling Soft-Failure Evolution for Triggering Timely Repair with Low QoT Margins

Sadananda Behera , Tania Panayiotou , Georgios Ellinas

分类：机器学习

2022-08-30

在这项工作中，借用编码器数据的学习框架的功能可以预测在漫长的未来视野中的软失败演化。这使得在发生昂贵的硬失败之前，可以通过低质量（QOT）利润来触发及时的维修操作，最终降低了维修操作的频率和相关的运营费用。具体而言，结果表明，所提出的方案能够在预期的艰苦失败前几天触发修复动作，与使用基于规则的固定QOT边缘的软失败检测方案相反，这可能会导致过早维修措施（即，在发生艰苦的事件发生之前的几个月）或修复为时已晚采取的措施（即发生艰苦失败之后）。在弹性光学网络中建立的LightPath评估并比较了两个框架，可以通过分析在相干接收器中监视的位误差信息来对软失败的演变进行建模。

translated by 谷歌翻译

Building Robust Machine Learning Models for Small Chemical Science Data: The Case of Shear Viscosity

Nikhil V. S. Avula , Shivanand K. Veesam , Sudarshan Behera , Sundaram Balasubramanian

分类：机器学习

2022-08-23

剪切粘度虽然是所有液体的基本特性，但在计算上估计分子动力学模拟的计算昂贵。最近，机器学习（ML）方法已被用于在许多情况下增强分子模拟，从而显示出以相对廉价的方式估算粘度的希望。但是，ML方法面临重大挑战，例如当数据集的大小很小时，粘度也很小。在这项工作中，我们训练多个ML模型，以预测Lennard-Jones（LJ）流体的剪切粘度，特别强调解决由小型数据集引起的问题。具体而言，研究了与模型选择，绩效估计和不确定性定量有关的问题。首先，我们表明使用单个看不见的数据集的广泛使用的性能估计步骤显示了小数据集的广泛可变性。在这种情况下，可以使用交叉验证（CV）选择超参数（模型选择）的常见实践，以估算概括误差（性能估计）。我们比较了两个简单的简历程序，以便他们同时选择模型选择和性能估计的能力，并发现基于K折CV的过程显示出较低的误差估计差异。我们讨论绩效指标在培训和评估中的作用。最后，使用高斯工艺回归（GPR）和集合方法来估计单个预测的不确定性。 GPR的不确定性估计还用于构建适用性域，使用ML模型对本工作中生成的另一个小数据集提供了更可靠的预测。总体而言，这项工作中规定的程序共同导致了针对小型数据集的强大ML模型。

translated by 谷歌翻译

A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type Identification in Sanskrit

Jivnesh Sandhan , Ashish Gupta , Hrishikesh Terdalkar , Tushar Sandhan , Suvendu Samanta , Laxmidhar Behera , Pawan Goyal

分类：自然语言处理

2022-08-22

复合现象在梵语中无处不在。它用于表达思想的简洁性，同时丰富语言的词汇和结构形成。在这项工作中，我们专注于梵语复合类型标识（SACTI）任务，在其中我们考虑了识别复合词组件之间语义关系的问题。早期的方法仅依赖于从组件获得的词汇信息，而忽略最关键的上下文和句法信息，对SACTI有用。但是，SACTI任务主要是由于化合物组件之间隐式编码的上下文敏感语义关系。因此，我们提出了一种新颖的多任务学习体系结构，该体系结构结合了上下文信息，并使用形态标记和依赖性解析作为两个辅助任务来丰富互补的句法信息。与最新系统相比，SACTI基准数据集上的实验显示了6.1分（准确性）和7.7点（F1得分）绝对增益。此外，我们的多语言实验证明了拟议的架构在英语和马拉地语中的功效。代码和数据集可在https://github.com/ashishgupta2598/sacti上公开获得。

translated by 谷歌翻译

Transform your Smartphone into a DSLR Camera: Learning the ISP in the Wild

Ardhendu Shekhar Tripathi , Martin Danelljan , Samarth Shukla , Radu Timofte , Luc Van Gool

分类：计算机视觉

2022-03-20

我们提出了一个可训练的图像信号处理（ISP）框架，该框架生成智能手机捕获的原始图像的数码单反相关图像。为了解决训练图对之间的颜色错位，我们采用了颜色条件的ISP网络，并优化了每个输入原始和参考DSLR图像之间的新型参数颜色映射。在推断期间，我们通过设计具有有效的全局上下文变压器模块的颜色预测网络来预测目标颜色图像。后者有效利用全球信息来学习一致的颜色和音调映射。我们进一步提出了一个强大的掩盖对齐损失，以识别和丢弃训练期间运动估计不准确的区域。最后，我们在野外（ISPW）数据集中介绍ISP，由弱配对的RAW和DSLR SRGB图像组成。我们广泛评估我们的方法，在两个数据集上设置新的最新技术。

translated by 谷歌翻译

Prabhupadavani: A Code-mixed Speech Translation Data for 25 Languages

Jivnesh Sandhan , Ayush Daksh , Om Adideva Paranjay , Laxmidhar Behera , Pawan Goyal

分类：自然语言处理

2022-01-27

如今，对混合代码的兴趣已在自然语言处理（NLP）中变得普遍存在；但是，对于语音翻译（ST）任务解决这一现象并没有太多关注。这完全可以归因于缺乏由代码混合的ST任务标记数据。因此，我们介绍了Prabhupadavani，这是一种用于25种语言的多语言代码混合ST数据集。它是多域的，涵盖了十个语言家庭，其中包含130多名演讲者的94小时语音，并手动与目标语言的相应文本保持一致。 Prabhupadavani是关于吠陀文化和遗产的文献，在文献中引用文学的情况下，在人文教学的背景下，代码转换很重要。据我们所知，Prabhupadvani是ST文献中第一个可用的多语言代码混合ST数据集。该数据也可用于代码混合的机器翻译任务。所有数据集可以在https://github.com/frozentoad9/cmst上访问。

translated by 谷歌翻译

Visually Guided UGV for Autonomous Mobile Manipulation in Dynamic and Unstructured GPS Denied Environments

Mohit Vohra , Laxmidhar Behera

分类：机器人

2021-12-15

提出了一种用于在自主模式下执行对象操纵的高度复杂任务的无人地面车辆（UGV）的机器人解决方案。本文主要集中在开发一种能够组装基本块的自主机器人系统，以在GPS拒绝环境中构建大3D结构。该系统文件的关键贡献是i）设计用于对象检测，部件检测，实例分段和跟踪，ii）用于鲁棒抓握的电磁夹具设计，以及III的电磁夹具设计）系统集成在其中集成了多个系统组件以开发优化的软件堆栈。在这项工作中详细说明了上述应用程序的整个机电调整和UGV算法设计。通过几个严格的实验报告了整个系统的性能和功效。

translated by 谷歌翻译

Chernoff Sampling for Active Testing and Extension to Active Regression

Subhojyoti Mukherjee , Ardhendu Tripathy , Robert Nowak

分类： (统计)机器学习 | 机器学习

2020-12-15

主动学习可以减少执行假设测试所需的样本数量并估计模型的参数。在本文中，我们重新审视Chernoff的作品，所述工作描述了用于执行假设测试的渐近最佳算法。我们获得了对Chernoff的算法的新颖性复杂性，具有非渐近术语，其在固定置信水平处具有其性能。我们还开发了Chernoff采样的延伸，可用于估计各种模型的参数，并且我们在估计误差上获得非渐近绑定。我们将延长Chernoff采样延伸，积极学习神经网络模型，并估算实际数据线性和非线性回归问题中的参数，其中我们的方法有利地对最先进的方法执行。

translated by 谷歌翻译